近年来,深度学习模型已成为农业计算机愿景的标准。这样的模型通常使用最初适合更通用的非农业数据集的模型权重对农业任务进行微调。缺乏农业特定的微调可能会增加训练时间和资源的使用,并降低模型性能,从而导致数据效率的总体下降。为了克服这一限制,我们为三个不同的任务收集了广泛的现有公共数据集,标准化它们,并构建标准培训和评估管道,为我们提供了一组基准测试和预处理的模型。然后,我们使用在深度学习任务中常用的方法进行了许多实验,但在其特定领域的农业应用中未探索。我们的实验指导我们开发多种方法,以提高培训农业深度学习模型,而没有对现有管道进行大规模修改。我们的结果表明,即使是使用农业预审预告额的模型权重,或将特定的空间增强量用于数据处理管道,也可以显着提高模型性能并导致较短的收敛时间,从而节省训练资源。此外,我们发现,即使是在低质量注释中训练的模型也可以产生与高质量等效物的可比性水平,这表明注释差的数据集仍然可以用于培训,扩大当前可用数据集的池。我们的方法在整个农业深度学习中广泛适用,并具有重大数据效率提高的高潜力。
translated by 谷歌翻译
产量估计是葡萄园管理中的强大工具,因为它允许种植者微调实践以优化产量和质量。但是,目前使用手动抽样进行估计,这是耗时和不精确的。这项研究表明,近端成像的应用与深度学习相结合,以进行葡萄园中的产量估计。使用车辆安装的传感套件进行连续数据收集,并使用商业收益率监控器在收获时结合了地面真实收益数据的收集,可以生成一个23,581个收益点和107,933张图像的大数据集。此外,这项研究是在机械管理的商业葡萄园中进行的,代表了一个充满挑战的图像分析环境,但在加利福尼亚中央山谷中的一组常见条件。测试了三个模型架构:对象检测,CNN回归和变压器模型。对象检测模型在手工标记的图像上进行了训练以定位葡萄束,并将束数量或像素区域求和以与葡萄产量相关。相反,回归模型端到端训练,以预测图像数据中的葡萄产量,而无需手动标记。结果表明,在代表性的保留数据集上,具有相当的绝对百分比误差为18%和18.5%的变压器和具有像素区域处理的对象检测模型。使用显着映射来证明CNN模型的注意力位于葡萄束的预测位置附近以及葡萄树冠的顶部。总体而言,该研究表明,近端成像和深度学习对于大规模预测葡萄群的适用性。此外,端到端建模方法能够与对象检测方法相当地执行,同时消除了手工标记的需求。
translated by 谷歌翻译
X射线微型计算机断层扫描(X射线Microct)已使以微米尺度上的植物和土壤中发生的特性和过程表征。尽管这种高级技术广泛使用,但硬件和软件的主要限制都限制了图像处理和数据分析的速度和准确性。机器学习的最新进展,特别是将卷积神经网络应用于图像分析的应用,已实现了图像数据的快速而准确的分割。然而,在将卷积神经网络应用于环境和农业相关图像的分析中仍然存在挑战。具体而言,计算机科学家和工程师,构建这些AI/ML工具的工程师与农业研究中潜在的最终用户之间存在脱节,他们可能不确定如何在其工作中应用这些工具。此外,与传统的计算系统相比,培训和应用深度学习模型所需的计算资源是独特的,对计算机游戏系统或图形设计工作更为常见。为了应对这些挑战,我们开发了一个模块化工作流程,用于使用Googles Colaboragoration Web应用程序中的低成本资源,将卷积神经网络应用于X射线Microct图像。在这里,我们介绍了工作流的结果,说明了如何使用核桃叶,杏仁花芽和土壤骨料的示例扫描来优化参数以获得最佳结果。我们预计该框架将加速植物和土壤科学中新兴的深度学习技术的采用和使用。
translated by 谷歌翻译
特征测量对于植物育种和农业生产管道至关重要。通常,使用费力的手动测量测量一套植物特征,然后用于培训和/或验证更高的吞吐量特征估计技术。这里,我们介绍了一种相对简单的卷积神经网络(CNN)模型,该模型接受多个传感器输入并预测多个连续特征输出 - 即多输入,多输出CNN(MIMO-CNN)。此外,我们将可变形的卷积层引入该网络架构(MIMO-DCNN),以使模型能够自适应地调整其接收领域,模拟数据中的复杂变量几何变换,以及微调连续的特征输出。我们检查MIMO-CNN和MIMO-DCNN模型如何在多输入(即RGB和深度图像)上执行,来自2021年自主温室挑战的多特征输出莴苣数据集。进行了消融研究以检查使用单一与多个输入的效果,以及单个与多个输出。 MIMO-DCNN模型导致归一化平均平方误差(NMSE)为0.068 - 顶部2021排行榜得分为0.081的实质性改进。提供了开源代码。
translated by 谷歌翻译
In unstructured environments, robots run the risk of unexpected collisions. How well they react to these events is determined by how transparent they are to collisions. Transparency is affected by structural properties as well as sensing and control architectures. In this paper, we propose the collision reflex metric as a way to formally quantify transparency. It is defined as the total impulse transferred in collision, which determines the collision mitigation capabilities of a closed-loop robotic system taking into account structure, sensing, and control. We analyze the effect of motor scaling, stiffness, and configuration on the collision reflex of a system using an analytical model. Physical experiments using the move-until-touch behavior are conducted to compare the collision reflex of direct-drive and quasi-direct-drive actuators and robotic hands (Schunk WSG-50 and Dexterous DDHand.) For transparent systems, we see a counter-intuitive trend: the impulse may be lower at higher pre-impact velocities.
translated by 谷歌翻译
Media bias can significantly impact the formation and development of opinions and sentiments in a population. It is thus important to study the emergence and development of partisan media and political polarization. However, it is challenging to quantitatively infer the ideological positions of media outlets. In this paper, we present a quantitative framework to infer both political bias and content quality of media outlets from text, and we illustrate this framework with empirical experiments with real-world data. We apply a bidirectional long short-term memory (LSTM) neural network to a data set of more than 1 million tweets to generate a two-dimensional ideological-bias and content-quality measurement for each tweet. We then infer a ``media-bias chart'' of (bias, quality) coordinates for the media outlets by integrating the (bias, quality) measurements of the tweets of the media outlets. We also apply a variety of baseline machine-learning methods, such as a naive-Bayes method and a support-vector machine (SVM), to infer the bias and quality values for each tweet. All of these baseline approaches are based on a bag-of-words approach. We find that the LSTM-network approach has the best performance of the examined methods. Our results illustrate the importance of leveraging word order into machine-learning methods in text analysis.
translated by 谷歌翻译
Researchers produce thousands of scholarly documents containing valuable technical knowledge. The community faces the laborious task of reading these documents to identify, extract, and synthesize information. To automate information gathering, document-level question answering (QA) offers a flexible framework where human-posed questions can be adapted to extract diverse knowledge. Finetuning QA systems requires access to labeled data (tuples of context, question and answer). However, data curation for document QA is uniquely challenging because the context (i.e. answer evidence passage) needs to be retrieved from potentially long, ill-formatted documents. Existing QA datasets sidestep this challenge by providing short, well-defined contexts that are unrealistic in real-world applications. We present a three-stage document QA approach: (1) text extraction from PDF; (2) evidence retrieval from extracted texts to form well-posed contexts; (3) QA to extract knowledge from contexts to return high-quality answers -- extractive, abstractive, or Boolean. Using QASPER for evaluation, our detect-retrieve-comprehend (DRC) system achieves a +7.19 improvement in Answer-F1 over existing baselines while delivering superior context selection. Our results demonstrate that DRC holds tremendous promise as a flexible framework for practical scientific document QA.
translated by 谷歌翻译
在许多现实世界中,当不二维测量值时,可能会提供自由旋转3D刚体(例如卫星)的图像观察。但是,图像数据的高维度排除了学习动力学和缺乏解释性的使用,从而降低了标准深度学习方法的有用性。在这项工作中,我们提出了一个物理知识的神经网络模型,以估计和预测图像序列中的3D旋转动力学。我们使用多阶段预测管道实现了这一目标,该管道将单个图像映射到潜在表示同构为$ \ Mathbf {so}(3)$,从潜在对计算角速度,并使用Hamiltonian Motion使用Hamiltonian运动方程来预测未来的潜在状态博学的哈密顿人的代表。我们证明了方法对新的旋转刚体数据集的功效,该数据集具有旋转立方体和矩形棱镜序列,并具有均匀且不均匀的密度。
translated by 谷歌翻译
美国的意识形态分裂在日常交流中变得越来越突出。因此,关于政治两极分化的许多研究,包括最近采取计算观点的许多努力。通过检测文本语料库中的政治偏见,可以尝试描述和辨别该文本的两极分性。从直觉上讲,命名的实体(即,用作名词的名词和短语)和文本中的标签经常带有有关政治观点的信息。例如,使用“支持选择”一词的人可能是自由的,而使用“亲生生命”一词的人可能是保守的。在本文中,我们试图揭示社交媒体文本数据中的政治极性,并通过将极性得分分配给实体和标签来量化这些极性。尽管这个想法很简单,但很难以可信赖的定量方式进行这种推论。关键挑战包括少数已知标签,连续的政治观点,以及在嵌入单词媒介中的极性得分和极性中性语义含义的保存。为了克服这些挑战,我们提出了极性感知的嵌入多任务学习(PEM)模型。该模型包括(1)自制的上下文保护任务,(2)基于注意力的推文级别的极性推导任务,以及(3)对抗性学习任务,可促进嵌入式的极性维度及其语义之间的独立性方面。我们的实验结果表明,我们的PEM模型可以成功学习极性感知的嵌入。我们检查了各种应用,从而证明了PEM模型的有效性。我们还讨论了我们的工作的重要局限性,并在将PEM模型应用于现实世界情景时的压力谨慎。
translated by 谷歌翻译
3D形状比2D图像提供了更多的信息。但是,与获取2D图像相比,有时会非常困难甚至不可能,因此有必要从2D图像中得出3D形状。尽管通常这是数学上不适的问题,但可以通过使用先验信息来限制问题公式来解决。在这里,我们提出了一种基于肯德尔的形状空间的新方法,可从单眼2D图像重建3D形状。这项工作是由研究Basking Shark的喂养行为的应用,这是一种濒临灭绝的物种,其巨大的大小和迁移率使3D形状数据几乎无法获得,从而阻碍了对其喂养行为和生态学的了解。但是,这些动物处于进食位置的2D图像很容易获得。我们将方法与基于最先进的形状的方法进行了比较,无论是在人棒模型还是在鲨鱼头骨架上。我们使用一系列的训练形状表明,Kendall Shape空间方法比以前的方法更强大,并导致形状合理的形状。这对于标本很少见的激励应用至关重要,因此只有很少的训练形状可用。
translated by 谷歌翻译